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Procede et svsteme de conversion raoides d'un signal vocal. 

La pr6sente invention concerne un proc§d6 de conversion d'un signal 
vocal prononcj§ par un locuteur source en un signal vocal convert! dont les carac- 
teristiques acoustiques ressemblent a celles d'un locuteur cible ainsi qu'un sys- 
teme mettant en oeuvre un tel proc6d§. 
5 Dans le cadre d'appiications de conversion de voix, telles que les ser- 

vices vocaux, les applications de dialogue oral homme-machlne ou encore la 
synthese vocale de textes, le rendu auditif est primordial et, pour obtenir una qua- 
lite acceptable, il convient de bien maTtriser les parametres lies a la prosodie des 
signaux vocaux. 

10 De maniere classique, les princlpaux parametres acoustiques ou pro- 

sodiques modifies lors de precedes de conversion de voix sent les parametres 
relatifs a Tenveloppe spectrale et/ou pour les sons voises faisant intervenir la vi- 
bration des cordes vocales, les parametres relatifs a une structure p^riodique, 
sort la pSriode fondamentale dont Tinverse est appel^ frequence fondamentale 

15 ou « pitch ». 

Les precedes de conversion de voix classiques comprennent en gene- 
ral la determination d'au moins une fonction de transformation de caract6ristiques 
acoustiques du locuteur source en caract^rlstlques acoustiques proches de cel- 
les du locuteur cible, et la transformation d'un signal vocal a convertir par 

20 Tapplication de cette ou ces fonctlons. 

Cette transformation est une operation longue et coQteuse en temps 

* de calcul. 

En effet, de telles fonctions de transformation sent classlquement 
consid§r6es comme des combinalsons Iin6aires d'un nombre fini important 
25 d'el^ments de transfomiation appliques a des el^nients representatifs du signal 
vocal a convertir. 

Le but de {'invention est de resoudre ces probldmes en d§finissant un 
proc§d§ et un systdme de conversion d'un signal vocal rapide et de bonne quali- 
te. 

30 A cet effet, la presente invention a pour objet un procede de conver- 

sion d'un signal vocal prononce par un locuteur source en un signal vocal conver- 
ti dont les caracteristiques acoustiques ressemblent a celles d'un locuteur cible, 
comprenant : 
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- la determination d*au moins une fonction de transformation de carac- 
tSristiques acoustiques du locuteur source en caracteristiques acoustiques pro- 
ches de celies du locuteur cible, S partir d'echantillons vocaux des locuteurs 
source et cible ; et 

5 - la transformation de caracteristiques acoustiques du signal vocal ^ 

convertir du locuteur source, par Tapplication de ladite au moins une fonction de 
transformation, 

caracterise en ce que ladite transfonnation comprend une etape 
d'application uniquement d'une partie determin6e d'au moins une fonction de 
10 transformation sur ledit signal a convertir. 

Le procede de invention permet ainsi de diminuer le temps de caicul 
necessaire a la mise en oeuvre, grace a rapplication uniquement d'une partie de- 
terminee d'au moins une fonction de transformation. 

Sulvant d'autres caracteristiques de Tinvention : 
15 - au moins la detemiination d'une fonction de transformation com- 

prend une etape de determination d'un modeie representant de maniere ponde- 
ree des caracteristiques acoustiques communes des echantillons vocaux du locu- 
teur cible et du locuteur source sur un ensemble fini de composantes de modeie, 
et ladite transformation comprend : 
20 - une etape d'analyse du signal vocal a convertir, regroupe en tra- 

mes pour obtenir, pour chaque trame d'echantlllons des informations relatives 
aux caracteristiques acoustiques ; 

- une etape de determination d'un indice de correspondance entre 
les frames a convertir et chaque composante dudit modeie ; et 
25 - une etape de selection d'une partie determinee desdites compo- 

santes dudit modeie en fonction desdits indices de correspondance, 

ladite etape d'application uniquement d'une partie determinee d'au 
moins une fonction de transformation comprenant rapplication auxdites frames d 
convertir de la seule partie de ladite au moins une fonction de transformation cor- 
30 respondant auxdites composantes du modeie s6lectionnees ; 

- il comporte en outre une etape de normalisation de chacun desdits 
indices de correspondance des composantes selectionnees par rapport a la 
somme de tous les indices de correspondance des composantes selectionnees ; 
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- il comporte en outre une §tape de memorisation desdits Indices de 
con^spondanoe et de ladtte partie d6tennln§e desdites composantes de modele, 
r6alis6e avant ladite etape de transfomiatlon, laquelle est retardee dans ie 
temps ; 

5 - ladite d6temiinatlon de ladite au moins une fonction de transfomia- 

tion comprend : 

- une §tape d'analyse des 6chantlllons vocaux des locuteurs source 
et clble, regroup§s en trame pour obtenir des caracteristiques acoustiques pour 
cheque trame d'§chantillons d'un iocuteur ; 

^0 - une etape d'alignement tempore! des caracteristiques acoustiques 

du Iocuteur source avec les caracteristiques acoustiques du Iocuteur cible, cette 
etape 6tant r6alisee avant ladite 6tape de determination d'un module ; 

- ladite etape de d§temnination d'un modele correspond §i la determi- 
nation d'un modele de melange de densites de probabilites gaussiennes ; 

15 - ladite etape de detenmination d'un modele comprend : 

- une sous-etape de determination d'un modeie correspondant ^ un 
melange de densites de probabilites gaussiennes, et 

- une sous-etape d'estlmation des parametres du melange de densi- 
tes de probabilites gaussiennes a partir de {'estimation du maximum de vraisem- 

20 blance entre les caracteristiques acoustiques des echantillons des locuteurs 
source et cible et Ie modele ; 

- ladite detennination d'au moins une fonction de transfonnation est 
realisee e partir d'un estimateur de la realisation des caracteristiques acoustiques 
du Iocuteur cible sachant les caracteristiques acoustiques du Iocuteur source ; 

25 - ledit estimateur est forme de Tesperance conditionnelle de la realisa- 

tion des caracteristiques acoustiques du Iocuteur cible sachant la realisation des 
caracteristiques acoustiques du Iocuteur source ; 

- il comporte en outre une etape de synthese pemnettant de fonmer un 
signal vocal converti ^ parHr desdites infonnations acoustiques transfonriees. 

30 L'invention a egalement pour objet un systeme de conversion d'un si- 

gnal vocal prononce par un Iocuteur source en un signal vocal converti dont les 
caracteristiques acoustiques ressemblent d celles d'un Iocuteur cible, compre- 
nant; 
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* des moyens de determination d'au moins une fonction de transfonna- 
tion des caract^ristiques acoustiques du locuteur source en caraot^ristiques 
acoustiques proches de celles du locuteur cible, d partir d'^chantillons vocaux 
des locuteurs source et cible ; et 
5 - des moyens de transformation des caractSristiques acoustiques du 

signal vocal d convertir du locuteur source par Tapplication de ladite au moins 
une fonction de transformation, 

caracterise en ce que lesdits moyens de transformation sont adaptes 
pour Tapplication uniquement d'une partie determinee d'au nioins une fonction de 
1 0 transfomnation sur ledit signal a convertir. 

Selon d'autres caracteristiques du systeme : 

- lesdits moyens de determination sont adapt6s pour la determination 
d'au moins une fonction de transformation a I'aide d'un modele representant de 
manidre ponderee des caracteristiques acoustiques communes des echantillons 

15 vocaux des locuteurs source et cible sur un ensemble fini de composantes, et en 
ce qu'il comporte : 

- des moyens d'analyse d.udit signal k convertir, regroup^ en tra- 
mes, pour obtenir, pour chaque trame d'echantillons, des informations relatives 
aux caracteristiques acoustiques ; 

20 - des moyens de determination d'un indice de correspond ance entre 

les trames k convertir et chaque composante dudit module ; et 

- des moyens de selection d'une partie d6terminee desdites compo- 
santes dudit module en fonction desdits indices de correspondence, 

lesdits moyens d'application etant adaptes pour appliquer uniquement 
25 une partie determinee de ladite au moins une fonction de transformation corres- 
pondant auxdites composantes du module seiectlonnees. 

^invention sera mieux comprise a la lecture de la description qui va 
suivre, donnee uniquement a titre d'exemple et faite en se referent aux dessins 
annexes, sur lesquels : 
30 - les Figs. 1A et 1B representent un organigramme general du precede 

de {'invention ; et 

- la Fig. 2 represente un schema synoptique d'un systeme mettant en 
oeuvre le precede de Tlnvention. 
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La conversion de voix consiste d modifier le signal vocal d'un locuteur 
de reference appel§ locuteur source, de telle sorte que le signal produit semble 
avoir 6te prononc^ par un autre locuteur, nomm§ locuteur cible. 

Un tel proc§d6 comporte tout d'abord la determination de fonctions de 
5 transformation de caract§ristiques acoustiques ou prosodiques, des signaux vo- 
caux du locuteur source en caracteristiques acoustiques proclies de celles des 
signaux vocaux du locuteur cible. a partir d'echantillons vocaux prononc6s par le 
locuteur source et le locuteur cible. 

Plus particulierement, la determination 1 de fonctions de transforma- 
10 tion est realises sur des bases de donnees d'ecliantillons vocaux correspondant 
a la realisation acoustique de memes sequences phonetiques, prononc6es res- 
pectivement par les locuteurs source et cible. 

Cette determination est designee sur la figure 1A par la reference nu- 
mSrique g^nerale 1 et est Sgalement couramment appelee « apprentissage ». 
15 Le proc6d§ comporte ensuite une transformation des caract§ristiques 

acoustiques d'un signal vobal d convertir prononc§ par le locuteur source A I'aide 
de la ou des fonctions determinSes precedemment Cette transformation est de- 
signee par la reference num6rique generate 2 sur la figure IB. 

En fonction des modes de realisation, differentes caracteristiques 
20 acoustiques sont transformees telles que des caracteristiques d'enveloppe spec- 
trale et/ou de frequence fondamentale. 

Le precede debute par des etapes 4X et 4Y d'analyse d*echantillons 
vocaux prononces respectivement par les iocuteurs source et cible. Ces etapes 
permettent de regrouper les echantillons par trame, afin d'obtenir pour chaque 
25 trame d'echantillons, des informations relatives d Tenveloppe spectrale et/ou des 
informations relatives a la frequence fondamentale. 

Dans le mode de realisation decrit, les etapes 4X et 4Y d'analyse sont 
fondees sur I'utilisation d'un modeie de signal sonore sous la forme d'une somme 
d'un signal harmonique avec un signal de bruit selon un modeie communement 
30 appeie "HNM" (en anglais : Harmonic plus Noise Model). 

Le modeie HNM comprend la modeiisation de chaque trame de signal 
vocal en une partie harmonique representant la composante periodique du si- 
gnal, constituee d'une somme de L sinusoTdes harmoniques d'ampiitude A| et de 
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phase <|)(, et d'une partie bruitee repr^sentant le bruit de friction et la variation de 
I'excitation glottale. 

On peut ainsi ecrire : 

s(n)=li(n)+b(n) 

5 avec h(n)= VAi(n)cos(<|)i(n)) 

Le terme h(n) represente done rapproximation harmonique du signal 

s(n). 

En outre, le mode de realisation decrit est fonde sur une representa- 
tion de Tenveloppe spectrale par le cepstre discret. 

10 Les etapes 4X et 4Y comportent des sous-etapes 8X et 8Y d'estima- 

tion, pour cliaque trame, de la frequence fondamentale, par exemple au moyen 
d'une methode d*auto correlation. 

Les sous-6tapes 8X et BY sont ciiacune suivies d'une sous-etape 10X 
et 10Y d'analyse synchronis^e de chaque trame sur sa frequence fondamentale, 

15 qui permet d'estlmer les param^tres de la partie harmonique ainsi que ies para- 
m^tres du bruit du signal et notamment la frequence maximale de voisement. En 
variante, cette frequence peut Stre fixSe arbitrairement ou Stre estim^e par d'au- 
tres moyens connus. 

Dans le mode de realisation decrit, cette analyse synchronis6e corres- 

20 pond a la determination des parametres des harmoniques par minimisation d'un 
critere de moindres carres ponderes entre le signal complet et sa decomposition 
harmonique correspondant dans le mode de realisation decrit, au signal de bruit 
estim^. Le critSre not§ E est ^gal d : 

E= f;wWs(n)-h(n))- 
n=-Ti 

25 Dans cette Equation, w (n) est la fenetre d'analyse et Ti est la periode 

fondamentale de la trame courante. 

Ainsi, la fenetre d'analyse est centree autour de la marque de la pe- 
riode fondamentale et a pour duree deux fois cette periode. 

En variante, ces analyses sont faites de maniere asynchrone avec un 
30 pas fixe d'analyse et une fen§tre de taille fixe. 

Les Stapes 4X et 4Y d'analyse compori:ent enfin des sous-stapes 12X 
et 12Y d'estimation des parametres de Tenveloppe spectrale des signaux en utili- 
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sant par exemple une methode de cepstre discret regularise et une transforma- 
tion en echelle de Bark pour reproduire le plus fidelement possible les proprietes 
de Toreille humaine. 

Ainsi, les 6tapes 4X et 4Y d'analyse delivrent respectivement pour les 
5 6chantlllons vocaux prononces par les locuteurs source et cible, pour chaque 
trame de rang n d'6chantillons des signaux de parole, un scalaire note Fn repre- 
sentant la frequence fondamentale et un vecteur not6 Cn comprenant des Infor- 
mations d'enveloppe spectrale sous la forme d'une sequence de coefficients 
cepstraux, 

10 Le mode de calcul des coefficients cepstraux correspond a un mode 

operatoire connu de I'etat de la technique et, pour cette raison, ne sera pas decrit 
plus en detail. 

Le proc6de de I'invention permet done de definir pour chaque trame n 
du locuteur source, un vecteur not§ Xn de coefficients cepstraux Qx(n) et la fre- 
15 quence fondamentale. 

De mani^re similaire, le proc^S permet de d^finir pour chaque trame 
n de locuteur cible, un vecteur yn de coefficients cepstraux Cy(n), ainsi que la fre- 
quence fondamentale. 

Les etapes 4X et 4Y sent suivies d'une 6tape 18 d'alignement entre le 
20 vecteur source Xn et le vecteur cible yn, de maniere a former un appariement en- 
tre ces vecteurs obtenu par un algorithme classique d'alignement tempore! dy- 
namique dit « DTW » (en anglais : Dynamic Time Warping). 

Uetape 18 d'aiignement est suivie d'une etape 20 de determination 
d'un module reprSsentant de maniere ponderee les caracteristiques acoustiques 
25 communes du locuteur source et du locuteur cible sur un ensemble fini de com- 
posantes de modele. 

Dans le mode de realisation decrit, 11 s'agit d'un modele probabiliste 
des caracteristiques acoustiques du locuteur cible et du locuteur source, selon un 
module note « GMM » de melanges de composantes fonn6es de densit6s gaus- 
30 siennes. Les parametres des composantes sont estimes a partir des vecteurs 
source et cible contenant, pour chaque locuteur, le cepstre discret. 

De maniere classique, la densite de probabilite d'une variable aleatoire 
not6e de maniere generate p(z), suivant un modele de melange de densites de 
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probabilites gaussiennes GMM s'§crit mathematiquement de la maniere sui- 
vante : 

Q 

p(2)=2«/^(^.>"/;S/) 

M 

Q 

avec = 1 . o<ai^1 

5 Dans cette formule, Q d6srgne le nombre de composantes du modele, 

N(z ; |Ji, 2i) est la densite de probabllite de la loi normale de moyenne pi et de ma- 
trice de covariance Sj et les coefficients ai sont les coefficients du melange. 

Ainsi, le coefficient oi correspond a la probabllite a priori que la varia- 
ble alSatoire z soit g§n§r6e par la \^^^ composante gaussienne du melange. 
10 De maniere plus particulidre, Tetape 20 de determination du module 

comporte une sous-6tape 22 de modSlisation de la densite jointe p(z) des vec- 
teurs source notd x et cible note y, de sorte que : 

Uetape 20 comporte ensuite une sous-etape 24 d'estimation de para- 
15 metres GMM (a, p, S) de la densite p(z). Cette estimation peut §tre realisee, par 
exemple, a Taide d'un algorithme classique de type dit "EM" (Expectation - 
Maximisation), correspondant a une methode iterative condulsant a I'obtention 
d'un estimateur de maximum de vraisemblance entre les donnees des echantil- 
ions de parole et le modele de melange de gaussiennes. 
20 La detemiination des parametres initiaux du modele GMM est obtenue 

a I'aide d*une technique classique de quantification vectortelle. 

Uetape 20 de determination de modele delivre ainsi les parametres 
d'un melange de densites gaussiennes representatifs des caracteristiques acous- 
tiques communes des echantillons vocaux du locuteur source et du locuteur ci- 
25 ble. 

Le modele ainsi defini forme done une representation ponderee de ca- 
racteristiques acoustiques d'enveloppe spectrale communes des echantillons 
vocaux du locuteur cible et du locuteur source sur Pensemble fini de composan- 
tes du modele. 
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Le procSd^ comporte ensuHe une §tape 30 de determination, § partir 
du modele et des 6chantillons vocaux, d'une fonction de transfomnation de 
I'enveloppe spectrale du signal du locuteur source vers le locuteur cible. 

Cette fonction de transfomnation est dStermin^e a partir d'un estlma- 
teur de la r§alisation des caract6ristiques acoustiques du locuteur cible §tant 
donn§ les caractSristiques acoustiques du locuteur source, form6 dans le mode 
de realisation d§crit, par resp6rance condltionnelle. 

Pour cela, i'^tape 30 comporte une sous-§tape 32 de determination de 
I'esp^rance conditionnelle des caract6ristiques acoustiques du locuteur cible sa- 
chant les informations caracteristiques acoustiques du locuteur source. L'espe- 
rance conditionnelle est notee F(x) et est d6termln6e ^ partir des formules sui- 
vantes : 

F(x)=E[y|xl=|;;,,W[;/^ + 2^a:'5^)-'(x-M'?)] 

I t I I 



avec 



hi(x)= 



X XX 

cXiN(x,M .) 



Q 



M J J 



avec 



2,= 



XX xy 



et fii- 



Dans ces Equations, hi(x) correspond k la probabilite a posteriori que 
le vecteur source x soit g6n§r§ par la i^'"^ composante du module de melange de 
densit^s gaussiennes du module, et ie terme entre crochets correspond d un 
element de transformation detennind d partir du modele. On rappelle que y d§si- 
gne le vecteur cible. 

La determination de Tesperance conditionnelle permet ainsi d'obtenir 
la fonction de transformation des caracteristiques d'enveloppe spectrale entre le 
locuteur source et le locuteur cible sous la forme d'une comblnaison lineaire pon- 
deree d'elements de transformation. 

L'etape 30 comporte egalement une sous-etape 34 de determination 
d'une fonction de transformation de la frequence fondamentale par une mise a 
r§chelle de la frequence fondamentale du locuteur source, sur la frequence fon- 
damentale du locuteur cible. Cette ^tape 34 est realisee de maniere ciassique a 
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un instant quelconque du proc^de d I'issue des sous-stapes 8X et 8Y 
d'estimation de ia frequence fondamentale. 

En reference d la figure 1B, le procedd de conversion comporte en- 
suite ia transformation 2 d'un signal vocal a convertir prononc§ par le locuteur 
5 source, lequel signal d convertir peut etre different des signaux vocaux utilises 
prScddemment. 

Cette transformation 2 debute par une etape d'analyse 36 realisee, 
dans le mode de realisation decrit, a Taide d'une decomposition selon le modele 
HNM simllaire a celles rSalisees dans les etapes 4X et 4Y decrites precedem- 
0 ment. Cette etape 36 permet de delivrer des informations d'enveloppe spectrale 
sous la forme de coefficients cepstraux, des informations de frequence fonda- 
mentale ainsi que des informations de phase et de frequence maximale de voi- 
sement. 

Cette etape 36 d'analyse est suivie d'une etape 38 de dStemiinatlon 
d'un indice de correspondance entre le vecteur d convertir et chaque composante 
du module. 

Dans le mode de realisation decrit, chacun de ces indices correspond 
S la probability a posteriori de la realisation du vecteur a convertir par chacune 
des differentes composantes du modele, soit au terme ii|(x). 

Le precede comporte ensuite une etape 40 de selection d'un nombre 
restreint de composantes du modele en fonction des indices de correspondance 
determines a Tetape precedente, lequel ensemble restreint est note S(x). 

Cette etape 40 de selection est mise en oeuvre par une procedure ite- 
rative permettant de retenir un ensemble minimal de composantes, ces compo- 
santes etant seiectionnees tant que la somme cumuiee de leurs indices de cor- 
respondance est inferieure a un seuil predetermine. 

En variante, cette etape de selection comprend la selection d'un nom- 
bre fixe de composantes dont les indices de correspondance sont les plus eie- 
ves. 

Dans le mode de realisation decrit, retape 40 de selection est suivie 
d'une etape 42 de normalisation des indices de correspondance des composan- 
tes seiectionnees du modele. Cette normalisation est realisee par le rapport de 
chaque indice seiectionne sur la somme de tous les indices seiectionnes. 
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Avantageusement, le procede comporte ensuite une Stape 43 de stoc- 
kage des composantes de module selectionnees ainsi que des indices de cor- 
respondance normalises associes. 

Une telle 6tape 43 de nriSmorisation est particuli^rement utile dans le 
5 cas oD I'analyse est rdaiisee en temps drfferd par rapport au reste de la transfor- 
mation 2, qui permet de preparer efficacement une conversion ulterieure. 

Le proc6de comporte ensuite une 6tape 44 d'application partielle de la 
fonction de transformation de I'enveloppe spectrale par rapplication des seuls 
elements de transformation correspondant aux composantes de module selec- 
10 tionnees. Ces seuls elements de transformation selectionnes sont appliques aux 
trames do signal a convertir, afin de reduire le temps necessaire a la mise en 
oeuvre de cette transformation. 

Cette etape 44 d'application correspond a la resolution de Tequation 
sutvante pour les seules composantes selectionnees de modele formant 
15 {'ensemble restant S(x), de sorte que 

F(x)= i; m;Xx)[//^ + S^(s'^)-^(x-m'^)] 

leS(x) III I 

avec wi(x)= ^^^^ 

Ainsi, pour une trame donnee, avec p la dimension des vecteurs de 
donn§es, Q le nombre total de composantes et N le nombre de composantes 
s§lectionn6es, I'^tape 44 d'application partielle de la fonction de tFansfomnatlon 
se limite N (P* + 1) multiplications, qui se rajoutent aux Q (P^ + 1) modifications 
pemiettant de d^temriiner les indices de correspondance, contre deux fois 
Q(P^+1). En consequence, la reduction de complexity obtenue est au moins de 
I'ordre de Q/(Q+N). 

De plus, dans le cas oil le rSsultat des stapes 36 d 42 a et§ memorise, 
grdce ^ la realisation de I'etape 43, I'^tape 44 d'application de la fonction de 
transformation se limite ^ N(P^+1) operations contre 2Q(P^+1), dans Cetat de la 
technique, de sorte que, pour cette 6tape 44, la reduction du temps de calcul est 
de I'ordre de 2Q/N. 
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La qualite de la transformation est cependant preservee par 
rapplication des composantes pr§sentant un indice de correspondance 6leve 
avec le signal a convertir. 

Le procede comporte ensuite une etape 46 de transfonnation des ca- 
5 racteristiques de frequence fondamentale du signal vocal d convertir, a I'alde de 
la fonction de transformation par mise ^ I'^chelie d6termin§e ^ I'Stape 34 et reali- 
s§e s.elon des techniques classiques. 

De maniere Sgalement classique, le proc§d§ de conversion comporte 
ensuite une §tape 48 de synthese du signal de sortie realisee, dans Fexemple 
10 decrit, par une synthese de type HNM qui delivre directement le signal vocal 
converti a partir des informations d'enveloppe spectrale transformees a Tetape 44 
et des informations de frequence fondamentale delivrees par I'etape 46. Cette 
etape 48 utilise egalement des informations de phase et de frequence maximale 
de voisement d^iivrees par I'etape 36. 
15 Le proc6d§ de conversion de Tinvention permet ainsi de realiser une 

conversion de haute qualite avec une faible complexity et done un gain de temps 
de calcul important. 

Sur la figure 2, on a represents un schema synoptique d'un systeme 
de conversion de voix mettant en oeuvre le procede decrit en reference aux figu- 
20 res lA et 1B, 

Ce systeme utilise en entree une base de donnSes 50 d'echantillons 
vocaux prononc6s par le locuteur source et une base de donnees 52 contenant 
au moins les memes echantillons vocaux prononc6s par le locuteur cible. 

Ces deux bases de donnSes sent utllisSes par un module 54 de de- 
25 termination de fonctions de transformation de caracteristiques acoustiques et du 
locuteur source en caracteristiques acoustiques du locuteur cible. 

Ce module 54 est adapte pour la mise en oeuvre de r§tape 1 telle que 
decrite en reference d la figure 1 et permet done la determination d'au moins une 
fonction de transformation de caracteristiques acoustiques et notamment la fonc- 
30 tion de transformation des caracteristiques d'enveloppe spectrale et la fonction 
de transformation de la frequence fondamentale. 

Notamment, le module 54 est adapte pour la determination de la fonc- 
tion de transformation de Tenveloppe spectrale a partir d'un modele representant 
de maniere ponderee des caracteristiques acoustiques communes des echantil- 
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Ions vocaux du locuteur cible et du iocuteur source, sur un ensemble fini de com- 
posantes de modeles. 

Le systeme de conversion de voix report en entree un signal vocal 60 
correspondant a un signal de parole prononcS par le locuteur source et destine a 
5 §tre convertl. 

Le signal 60 est introduit dans un module 62 d'analyse mettant en oeu- 
vre, par exemple une decomposition de type HNM pennettant d'extraire des in- 
formations d'enveloppe spectrale du signal 60 sous la forme de coefficients ceps- 
traux et des informations de frequence fondamentale. Le module 62 delivre ega- 
10 lement des informations de phase et de frequence maximales de voisement ob- 
tenues par Tapplication du modele HNM. 

Le module 62 met done en oeuvre Tetape 36 du precede tel decrit pre- 
cedemment. 

Eventuellement, le module 62 est mis en oeuvre au pr6alable et les in- 
15 formations sont stock6es pourStre utilisees ulterieurement 

Le systeme comporte ensuite un module 64 de determination des indi- 
ces de correspondance entre le signal vocal a convertir 60 et cheque compo- 
sante du module. A cet effet, le module 64 repoit fes parametres du module d§- 
temiine par le module 54. 
20 Le module 64 met done en oeuvre Tetape 38 du procede tel que decrit 

precedemment. 

Le systeme comprend ensuite un modele 65 de selection de compo- 
santes du modele mettant en oeuvre Tetape 40 de procede decrit precedemment 
et permettant la selection de composantes presentant un indice de correspon- 
25 dance traduisant une forte connexite avec le signal vocal a convertir. 

Avantageusement, ce module 65 realise egalement la nomialisation 
des indices de correspondance des composantes seiectionnees par rapport a 
leur moyenne en mettant en oeuvre retape 42. 

Le precede comporte ensuite un module 66 d'appiication partielie de la 
30 fonction de transformation de Tenveloppe spectrale determinee par le module 54, 
par Tapplication des seuls elements de transformation seiectionnes par le module 
65 en fonction des indices de correspondance. 

Ainsi, ce module 66 est adapte pour la mise en oeuvre de retape 44 
d'application partielie de la fonction de transformation, de maniere a deiivrer en 
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sortie, des informations acoustiques du locuteur source transformees par les 
seuls elements s^lectionn§s de la fonction de transfomnation, solt par les compo- 
santes du module pr6sentant un indice de conrespondance 61ev§, avec les tra- 
mes du signal ^ convertir 60. Ce module permet done une transformation rapide 
5 du signal vocal §i convertir gr§ce d rappiication partielle de la fonction de trans- 
formation. 

La qualite de la transformation est pr6sen/ee par la selection des com- 
posantes du module pr6sentant un indice eleve de correspondance avec le signal 
S convertir. 

iO Le module 66 est 6galement adapts pour realiser une transformation 

des caract§rlstiques de frequence fondamentale, r6alis6e de mani^re classique 
par rappiication de la fonction de transformation par mise ^ I'^chelle r6alis§e se- 
lon I'^tape 46. 

Le systdme comporte ensulte un module 68 de synthase recevant en 
15 entree, les infonnations d'enveloppe spectrale et de frequence fondamentale 
transfomn6es et delivr^es par le module 66 ainsi que des infomiations de phase 
et de frequence maximale de voisement dSlivr^es par le module 62 d'analyse. 

Le module 68 met aInsi en oeuvre I'Stape 46 du procSd^ d6crit en refe- 
rence a la figure 1 et delivre un signal 70, correspondant au signal vocal 60 du 
20 locuteur source mais dont les caracteristiques d'enveloppe spectrale et de fre- 
quence fondamentale, ont 6te modifiees afin d'etre similaires d celles du locuteur 
cible. 

Le systdme decrit peut dtre mis en oeuvre de diverses mani§res et no- 
tamment & I'aide de programmes informatlques adapt§s et relies a des moyens 
25 mat§rieis d'acquisition sonore. 

Ce systeme peut egalement 6tre mis en oeuvre sur des bases de don- 
n6es d§tennin6es afin de fomrier des bases de donn6es de signaux convertis 
prets d etre utilises. 

Notamment, ce systeme peut etre mis en oeuvre dans une premiere 
30 phase de fonctionnement afin de d^livrer, pour une base de donn§es de si- 
gnaux, des infonnations relatives aux composantes du modele s§lectionnees 
ainsi qu'ii leurs indices de con-espondance respectifs, ces infonnations etant 
alors m^morisees. 
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Les modules 66 et 68 du systeme, sont mis en oeuvre ult^rieurement a 
la demands, pour g6n6rer un signal vocal de synthase en utillsant les signaux 
vocaux § convertir et les Infomrjations relatives aux composantes s6lectionn§es et 
d leurs Indices de conespondance afin d'obtenir une reduction maximale du 

5 temps de calcui. 

En fonctibn de la complexite des signaux et de la quality souhait6e, le 
proc6d6 de {'invention et le systeme correspondant peuvent 6galement §tre mis 
en oeuvre en temps r6el. 

En variante, le proc6d6 de I'invention et le systdme correspondant sont 

10 adaptes pour la determination de plusieurs fonctions de transfomriation. Par 
exemple, une premiere et seconde fonctions sont d§termin6es pour la transfor- 
mation respectivement des param6tres d'enveloppe spectrale et des parametres 
de frequence fondamentale des trames ^ caractere voise et une troisieme fonc- 
tlon est d6temiin§e pour la transformation des trames d caract6re non voise. 

15 Dans un tel mode de realisation, il est done pr6vu une 6tape de sepa- 

ration, dans le signal vocal d convertir, des trames voisees et non vois6es et une 
ou plusieurs 6tapes de transformation de diacun de ces ensembles de trames. 

Dans le cadre de I'invention, une seule ou plusieurs des fonctions de. 
transfonnation est appliqu^e partiellement de manlere a diminuer le temps de 

20 traitement. 

Par ailleurs, dans I'exemple decrit, la conversion de voix est realis6e 
par transfonnation des caract§ristiques d'enveloppe spectrale et des caracteristi- 
ques de frequence fondamentale de mani^re s6par§e, seule la fonction de trans- 
formation de I'enveloppe spectrale 6tant appllquee partiellement En variante, 
25 plusieurs fonctions de transfonnation de diff6rentes caracteristiques acoustiques 
et/ou de transfonnation simultan§es de plusieurs caracteristiques acoustiques 
sont d6tennin§es et au moins Tune de ces fonctions de transformation est appli- 
quee partiellement. 

De maniere g6n6rale, le systeme est adapte pour la mise en oeuvre de 
30 toutes les etapes du proc6d§ decrit en reference aux figures 1 A et 1 B. 

Bien entendu, d'autres modes de realisation que ceux decrits, peuvent 
§tre envisages. 

Notamment, les modeles HNM et GMM peuvent §tre remplaces par 
d'autres techniques et modules connus de I'homme de I'art. Par exemple, 
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i'anaiyse est r§aiisee ^ Taide de techniques dites LPC (Linear Predictive Co- 
ding), de modules sinusoTdaux ou MBE (Multi Band Excited), les param^tres 
spectraux sent des paramStres dits LSF (Line Spectrum Frequencies), ou encore 
des parametres Ms aux fornnants ou d un signal glottique. Erivvariante, ie module 
5 GMM est remplac6 par une quantification vectorielie floue (Fuzzy VQ.). 

En variante, I'estimateur mis en oeuvre lors de I'etape 30 peut §tre un 
critere de maximum a posteriori, dit "MAP" et correspondant ^ la realisation du 
calcul de resperance uniquement pour Ie modele representant Ie mieux Ie couple 
de vecteurs source-cible. 

10 Dans une autre variante, la detennination d'une fonction de 

transformation est realisee a Taide d'une technique dite des molndres carres au 
lieu de I'estimation de la densite jointe d§crite. 

Dans cette variante, la determination d'une fonction de transformation 
comprend la mod§lisation de la densite de probabilite des vecteurs source a 

15 Taide d'un module GMM puis la determination des parametres du modele a Taide 
d'un algorithme EM. La modeiisation prend ainsi en compte des segments de 
parole du locuteur source dont les correspondants prononces par Ie locuteur cible 
ne sont pas disponibies. 

La determination comprend ensuite la minimisation d'un critere des 

20 moindres carres entre parametres cible et source pour obtenir la fonction de 
transformation. II est a noter que I'estimateur de cette fonction s'exprime toujours 
de la meme maniere mais que les parametres sont estimes differemment et que 
des donn^es supplementaires sont prises en compte. 



i 
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REVENDICATIONS 

1 . Proc6de de conversion d'un signal vocal (60) prononce par un locu- 
teur source en un signal vocal convert! (70) dont les caracteristiques acoustiques 
ressemblent a celles d'un locuteur cible, comprenant : 
5 - la determination (1) d'au moins une fonctlon de transformation de ca- 

racteristiques acoustiques du locuteur source en caracteristiques acoustiques 
proches de celles du locuteur clble, a partir d'echantlllons vocaux des locuteurs 
source et cible ; et 

- la transformation (2) de caracteristiques acoustiques du signal vocal 
10 a convertir du locuteur source, par Tapplication de ladite au moins une fonctlon 

de transformation, 

caracterise en ce que ladite transformation (2) comprend une etape 
(44) d'application uniquement d'une partie determinee d'au moins une fonctlon de 
transformation sur ledit signal a convertir. 

15 2. Proc6d§ selon la revendication 1, caracterise en ce qu'au moins la 

determination (1) d'une fonctlon de transfomiation comprend une etape. (20) de 
determination d'un module representant de mani^re ponder6e des caracteristi- 
ques acoustiques communes des echantillons vocaux du locuteur cible et du lo- 
cuteur source sur un ensemble fini de composantes de module, et en ce que la- 

20 dite transformation (2) comprend : 

- une etape (36) d'analyse du signal vocal a convertiir, regroupe en 
trames pour obtenir, pour chaque trame d'echantillons des infomnations relatives 
aux caracteristiques acoustiques ; 

- une etape (38) de determination d'un indice de correspondance entre 
25 les trames a convertir et chaque composante dudit modele ; et 

- une etape (40) de selection d'une partie determinee desdites compo- 
santes dudit modeie en fonctlon desdits indices de correspondance, 

ladite etape (44) d'application uniquement d'une partie determinee 
d'au moins une fonctlon de transformation comprenant Tapplication auxdites tra- 
30 mes a convertir de la seule partie de ladite au moins une fonction de transfomia- 
tion correspondant auxdites composantes du modele selectionnees. 

3. Precede selon la revendication 2, caracterise en ce qu'il comporte 
en outre une etape (42) de normalisation de chacun desdits indices de corres- 
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pondance des composantes sSlectionnees par rapport a la somme de tous les 
indices de correspondance des composantes selectionn^es. 

4. Proc§d§ selon i'une quelconque des revendications 2 et 3, caracte- 
ris§ en ce qu'il comporte en outre une §tape (43) de m§morisation desdits indices 

5 de correspondance et de ladite partie dStemnin^e desdites composantes de mo- 
dele, realisee avant. ladite §tape (44) de transfonnation, laquelle est retardee 
dans le temps. 

5. Precede selon Tune quelconque des revendications 2 a 4, caracteri- 
s§ en ce que ladite determination (1) de ladite au moins une fonction de trans- 

10 fomnation comprend : 

- une etape (4X, 4Y) d'analyse des echantillons vocaux des locuteurs 
source et cible, regroup^s en trame pour obtenir des caracteristiques acoustiques 
pour chaque trame d'§chantillons d'un locuteur ; 

- une etape (18) d'alignement temporel des caracteristiques acousti- 
15 ques du locuteur source avec les caracteristiques acoustiques du locuteur cible, 

cette etape (18) etant realisee avant ladite etape (20) de determination d'un mo- 
dele. 

6. Precede selon Tune quelconque des revendications 2 a 4, caracteri- 
se en ce que ladite etape (20) de determination d'un modele correspond a la 

20 determination d'un modele de melange de densites de probabilites gaussiennes. 

.7. Procede selon la revendicatton 6, caracterise en ce que ladite etape 
de determination (20) d'un modele comprend : 

- une sous-etape (22) de determination d'un modele correspondant a 
un melange de densites de probabilites gaussiennes, et 

25 - une sous-etape (24) d'estimation des parametres du melange de 

densites de probabilites gaussiennes d partir de Testimation du maximum de 
vraisemblance entre les caracteristiques acoustiques des echantillons des locu- 
teui^ source et cible et le modele. 

8. Precede selon Tune quelconque des revendications 1 a 7, caracteri- 

30 se en ce que ladite determination (1) d*au moins une fonction de transfomriation 
est realisee a partir d'un estimateur de la realisation des caracteristiques acousti- 
ques du locuteur cible sachant les caracteristiques acoustiques du locuteur 
source. 
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9. Procede selon la revendication 8, caracterise en ce que ledit estima- 
teur est form§ de Tesperance conditionnelle de la realisation des caracteristiques 
acoustiques du locuteur cible sachant la realisation des caracteristiques acousti- 
ques du locuteur source. 
5 10. Precede selon Tune quelconque des revendications 1^9, caracte- 

rise en ce qu'il comporte en outre une 6tape (48) de synthese permettant de for- 
mer un signal vocal convert! a partir desdites informations acoustiques transfor- 
mees. 

11. Systeme de conversion d'un signal vocal (60) prononce par un lo- 
10 cuteur source en un signal vocal convert! (70) dont les caracteristiques acousti- 
ques ressemblent a celles d'un locuteur cible, comprenant : 

- des moyens (56) de determination d'au moins une fonction de trans- 
formation des caracteristiques acoustiques du locuteur source en caracteristiques 
acoustiques proches de celles du locuteur cible, d partir d'echantiilons vocaux 

15 des locuteurs source et cible ; et 

- des moyens (66) de transfomnation des caracteristiques acoustiques 
du signal vocal a convertir (60) du locuteur source par Tapplication de ladite au 
moins une fonction de transformation, 

caracterise en ce que lesdits moyens (66) de transformation sont 
20 adaptes pour Tapplication uniquement d'une partie determinee d'au moins une 
fonction de transformation sur ledit signal a convertir (60). 

12. Systeme selon la revendication 11, caracterise en ce que lesdits 
moyens (54) de determination sont adaptes pour la determination d'au moins une 
fonction de transformation d Taide d'un modeie representant de maniere ponde- 

25 ree des caracteristiques acoustiques communes des echantillons vocaux des 
locuteurs source et cible sur un ensemble fini de composantes, et en ce qu'il 
comporte : 

- des moyens (62) d'analyse dudit signal d convertir (60), regroupe en 
trames, pour obtenir, pour chaque trame d'echantillons, des informations relatives 

30 aux caracteristiques acoustiques ; 

- des moyens (64) de determination d'un indice de correspondance en- 
tre les trames a convertir et chaque composante dudit modeie ; et 

- des moyens (65) de selection d'une partie determinee desdites com- 
posantes dudit modeie en fonction desdits indices de correspondance, 
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iesdits moyens (66) d'application Stant adaptes pour appliquer uni- 
quement une partie d6termln6e de ladite au moins une fonction de transformation 
con^espondant auxdrtes composantes du modele s^lectionnees. 



wo 2005/106853 



113 



PCT/FR2005/000607 




wo 2005/106853 PCT/FR2005/000607 



2/3 



® 













-36- 


h 






-38- 








-40- 






-42- 






-43- 






-44- 








-46- 






-48- 



>2 



FIG. IB 



wo 2005/106853 PCT/FR2005/000607 



313 





INTERNATIONAL SEARCH REPORT 


IntdrmUonal Application No 

DPT /coonnn /noAcm 
rC 1 /^K^cClUt>/(:/UUDU/ 


A. CLASSIFICATJON OF SUBJECT lUIATTER 




Accordino to International Patent Classification (IPC) or to t>oth national classification and IPC 




B. FIELDS SEARCHED 


Minimum documentation searched (classification system followed bv dasslficaUcn symbols) 

IPC 7 618L 


Documentation searched other than minlmuni documentation to the extent that such documents are Indudad in the fields searched 


Electronic data base consulted during the international search (naine of data base and, where practical. 


search terms used) 



EPO-InternaU WPI Data. PAJ. IBM-TDB, INSPEC. COMPENDEX 



C. DOCUMENTS CONSIDERED TO BE RELEVANT 



Category' 



atatton of document, with indioation, where appropriate, of the relevant passe^es 



STYLIANOU Y ET AL: "STATISTICAL METHODS 
FOR VOICE QUALITY TRANSFORMATION" 
4TH EUROPEAN CONFERENCE ON SPEECH 
COMMUNICATION AND TECHNOLOGY. EUROSPEECH 
'95. MADRID. SPAIN, SEPT. 18 - 21, 1995, 
EUROPEAN CONFERENCE ON SPEECH 
COMMUNICATION AND TECHNOLOGY. 
(EUROSPEECH). MADRID : GRAFICAS BRENS, ES, 
vol. VOL. 1 CONF. 4, 
18 September 1995 (1995-G9-18) . pages 
447-450. XPQG0854745 
the whole document 



-/-- 



ReTevanttoclaknNo. 



1-12 



I X| Further documents are listed In the oontinuafion of box C. 



Xj Patent tamny members are listed In annex. 



* Special categories of cited documents : 

"A" document defining the general state of the art which Is not 
consldersd to be of particular relevance 

"E" earlier document but published on or after the International 
filing date 

"L" document which may throw doubts on pnority cla!m(8) or 
which is cited to establish the publication date of another 
citation or other spedai reason (as specified) 

Xy document refening to an oral disclosure, use, exhibitbn or 
other means 

document published prior to the international filing date but 
later than the priority date ciaimed 



T" later document pubtlsfied after the Intemationai Cling data 
or pnofUy date and not In conflict with the application but 
cited to understand the prlnc^e or theory underh^ing the 
invention 

■){■ document of particular relevance; the claimed Invention 
cannot be considered novel or cannot be considered to 
involve an inventive step when the document Is tal(en alone 

"Y" document of particular relevance; the claimed Invention 
cannot be considered to involve an Inventive step when the 
document id combined with one or more other such docu- 
ments, such combination being obvbus to a person sicffled 
In the art. 

"a" document member of the same patent family 



Date of the actual completion of the international search 

24 June 2005 


Date of mailing of the intemationai search report 

fit 09, 2005 


Name and maHIng address of the ISA 

European Patent Office, P,a 5818 Patenliaan 2 
NL - 2280 HV Rijswijk 
TeL (+31-70)340-2040. Tx. 31 651 eponl 
Fax: (+31-70) 340-3016 


Authorized officer 

Dobler, E 



INTERNATIONAL SEARCH REPORT 



Inter/TSlional Application No 

PCT/FR2005/000507 



C.(Continuatfon) DOCUMENTS CONSIDERED TO BE RELEVANT 



Category Cllatton of document, with Indication, where appropriate, of the relevant passages 



Relevant to dabn No. 



wo 02/067245 A (AUCKEMTHALER ROLAND ; 
CAREY MICHAEL JOHN (GB) ; IMAGINATION 
TECHNOLOGIE) 29 August 2G02 (2002-G8-29) 
page 1» 11ne 34 - page 2, line 16; figures 
1-4 

page 6, line 10 - page 8, line 9 

BANDOIN G ET AL: "On the transformation 
of the speech spectrum for voice 
conversion" 

SPOKEN LANGUAGE. 1996. ICSLP 96. 
PROCEEDINGS., FOURTH INTERNATIONAL 
CONFERENCE ON PHILADELPHIA, PA, USA 3-6 
OCT. 1996, NEW YORK. NY, USA, IEEE, US, 
3 October 1996 (1996-19-03) , pages 
1405-1408, XP01 0237945 
ISBN: 0-7803-3555-4 

page 1405, right-hand column, line 3 - 
page 1407, left-hand column, line 26 



1-12 



1-12 



HELENCA DUXAMS AND ANTONIO BONAFONTE ET 
AL: "Estimation of GMM in voice 
conversion including unaligned data" 
PROCEEDINGS OF THE EUROSPEECH 2803 
CONFERENCE, September 2003 (2003-09), 
pages 861-864, XP007007125 - 
the whole document 



1-12 



YINING CHENl ET AL: "Voice Conversion 
with Smoothed GMM and MAP Adaptation" 
PROCEEDINGS OF THE EUROSPEECH 2003 
CONFERENCE, September 2003 (2003-09), 
pages 2413-2416, XP00700696e 
page 2413, left-hand colunn, line 1 
2415, left-hand column, line 18 



1-12 



page 



LAROCHE J ET AL: "HNM: a simple, 
efficient harmonic+noise model for speech" 
APPLICATIONS OF SIGNAL PROCESSING TO AUDIO 
AND ACOUSTICS, 1993. FINAL PROGRAM AND 
PAPER SUMMARIES., 1993 IEEE WORKSHOP ON 
NEW PALTZ, NY, USA 17-20 OCT. 1993, NEW 
YORK, NY, USA, IEEE, 
17 October 1993 (1993-10-17), pages 
169-172, XP010130052 
ISBN: 0-7803-2078-6 
the whole document 



1-12 



1 



Form PCT/I8A/210 (oonUnuallon ol setood ahed) (Janumy a0O4) 



INTERNATIONAL SEARCH REPORT 



Information on patent famfl/ members 



Interff&tional Application Mo 

PCT/FR2005/e00507 



Patent document 
cited in search report 



Publication 
date 



Patent family 
member(s) 



Publication 
date 



wo 02067245 



29-08-2002 



GB 
WO 



2372356 A 
02067245 Al 



21-08-2002 
29-08-2002 



Form PCT/SAfilO (paleni lanfly annoO (January 2004) 



RAPPORT DE RECHERCHE INTERNATIONAL^ 



A.CLi 

CIB 



CLASSEMENT DE L'OBJET DE LA DEMANDE 

7 G10L21/00 



DeiiMae tntemattonale No 

PCT/FR2G05/G00607 



Selon la dasslffcation intemafionale des brevets (GIB) ou k la fois salon la dassificatlon nationals el la CIB 



B. DOMAINES SUR LESQUELS LA RECHERCHE A PORTE 



Documentation mniimale oonsultee (systdme de classtflcation SUM das synnboks de dassement) 

CIB 7 G10L 



Dooumsntatlon consultee autre que la documentation mtnimale dans la mesure oD ces documents reliant des domalnes sur lesquels a portd la rectierche 



Base de donnto Slectronique consultSe au cours de la recherctie intematUsnala (nom de la base de donndes. el si realisable, tarmes de recherche 

EPO-Internal, WPI Data, PAJ, IBM-TDB, INSPEC, COMPENDEX 



C. DOCUMENTS CONSIDERES COMME PERTINENTS 



CatSgorfe * IdenUficalion des documents oitds, avae, le cas 6chdant rindcation des passages pertinents 



no. des revendlcatlons visdes 



STYLIANOU Y ET AL: "STATISTICAL METHODS 
FOR VOICE QUALITY TRANSFORMATION" 
4TH EUROPEAN CONFERENCE ON SPEECH 
COMMUNICATION AND TECHNOLOGY. EUROSPEECH 
'95. MADRID, SPAIN. SEPT. 18-21, 1995, 
EUROPEAN^ CONFERENCE ON SPEECH 
COMMUNICATION AND TECHNOLOGY. 
(EUROSPEECH), MADRID : 6RAFICAS BRENS, ES, 
vol. VOL. 1 CONF. 4. 
18 septembre 1995 (1995-09-18) , pages 
447-450, XP0O0854745 
le document en entier 



1-12 



-/-■ 



Xj Vol- (a suite du cadre C pour la fin de la lists des documents 



X 1.68 documents de families de brevets sont indlquds en annexe 



^ Categories spSdales de documents dtds: 

"A" document ddflnlssant i'dtat o^ndral de la technique, non 
considdrd comma parttcuuorsment pertinent 

"E* document ant^rieur, maie public ^ la date de ddp6t International 
ou apr^s cette date 

"L* document pouvant Jeter un doute sur une revendicatlon de 
prlorfld oudtd pour determiner la data de publication cfune 
autre citation ou pour une raison sp^ciale (telle qu'lndlqu6e) 

"C document se rdfdrant & une divulgation orale, & un usage, & 
Une ej^slflon ou tous autres moyens 

"P" document public avant la date de dipdt international, mafs 
postdrlsurBment ft la date de prtarild revendlquSe 



T" document utt^rieur putile aprds la date de dgp&t international ou la 
date de priorita et n'appanenenant pas a Petat de la 
technique pertinent, mats did pour comprendre le prtndpe 
ou la thSone constituant la base de Pinvantlon 

■X" document partfeufieremenl pertinent; Finven tion revendfcjuee ne pout 
6trB consld6r6e comme nouvelle ou comme ImpHquant une acUvll6 
Inventive par rapport au document conslddrd isot^enl 

"V" document particulidremenl pertinent; flnvsn tlon revendiquee 
ne peut dtre conslderie comme ImpHquant une actMtdTnventlve 
lorsque le document est associd a un ou plu^eurs autres 
documents de mdme nature, cette combfrialson dtant ^idsnte 
pour una personne du mSIIer 

"&* document qui fait partie de la mdme famllle de brevels 



Date ft laqueile la recherche intemaitonale a 6tft efTecttvement achev6e 



24 juin 2005 



Date d'expMItion du present rapport de recherche Internationale 



01 09. 2005 



Nom et adnesse postale de I'adnr^lstration chargee de la reclierclie intemationale 
Office Europeen des Brevets, P.B« 581 B Patentlaan 2 
NL-2280 HVRijswijk 
Tel. <+31-70) 340-2040, Tk. 31 651 epo nl, 

Fax; {+31-70)340-3018 



Fonctionr^lre autorlsft 



Dobler, E 



Fonnulaire PCTASMIXO (deuxitoe feunia) (Janvier 2004} 



RAPPORT DE RECHERCHE INTERNATIONALE 



C^suite) DOCUMENTS CONSIDERESCOMME PERTINENTS 



Deif^Re Internationale No 

PCT/FR20O5/O00607 



CatSigorie « Identification des documents cit6s, avee, ie cas ^chdant, nndlcation des passages perllnents 



no. des revsndicattons visdes 



wo 02/067245 A (AUCKENTHALER ROUND ; 
CAREY MICHAEL JOHN (GB) ; IMAGINATION 
TECHNOLOGIE) 29 aoQt 2002 (2002-08-29) 
page 1, ligne 34 - page 2, ligne 16; 
figures 1-4 

page 6, ligne 10 - page 8, ligne 9 

BANDOIN G ET AL: "On the transformation 
of the speech spectrum for voice 
conversion" 

SPOKEN UNGUAGE. 1996. ICSLP 96. 
PROCEEDINGS., FOURTH INTERNATIONAL 
CONFERENCE ON PHILADELPHIA. PA. USA 3-6 
OCT. 1996, NEW YORK, NY, USA, IEEE, US, 
3 octobre 1995 (1996-10-03), pages 
1405-1408, XP010237945 
ISBN: 0-7803-3555-4 

page 1405, colonne de droite, ligne 3 - 
page 1407, colonne de gauche, ligne 26 

HELENCA DUXANS AND ANTONIO BONAFONTE ET 
AL: "Estimation of GMM in voice 
conversion including unaligned data" 
PROCEEDINGS OF THE EUROSPEECH 2003 
CONFERENCE, septembre 2003 (2003-09). 
pages 861-864, XP007Oe7125 
le document en entier 



1-12 



1-12 



1-12 



YINING CHENl ET AL: "Voice Conversion 
with Smoothed GMM and MAP Adaptation" 
PROCEEDINGS OF THE EUROSREECH 2003 
CONFERENCE, septembre 2003 (2003-09) , 
pages 2413-2416, XP007006950 
page 2413, colonne de gauche, ligne 1 - 
page 2415, colonne de gauche, ligne 18 



1-12 



LAROCHE J ET AL: "HNM: a simple, 
efficient harmoni c+noi se model for speech" 
APPLICATIONS OF SIGNAL PROCESSING TO AUDIO 
AND ACOUSTICS, 1993. FINAL PROGRAM AND 
PAPER SUMMARIES., 1993 IEEE WORKSHOP ON 
NEW PALTZ, NY, USA 17-20 OCT. 1993, NEW 
YORK, NY, USA, IEEE, 
17 octobre 1993 (1993-10-17), pages 
169-172, XP010130052 
ISBN: 0-7803-2078-6 
le document en entier 



1-12 



Fonnutalra PCmSAOlO (sulttt da la daustttna teuila) (Janviar 2004) 



RAPPORT DE RECHERCHE INTERNATIONALE 

Renselgnements relatlfs sux merobres de famtlles da brevets 



le Internationa Id No 

PCT/FR20e5/00O607 



Document brevet cftd 


OatedB 




Membrs(s) de la 


Date de 


au rapport de recherche 


publication 




famine de brevet(s) 


publication 


wo 92067245 A 


29-08-2002 


GB 


2372366 A . 


21-08-2002 






WO 


02067245 Al 


29-08-2002 



Foronilalre PCT^SASIO (annexe lamiUes de brevets) panvter 2004) 



